深度強化學習(Deep Reinforcement Learning, DRL)

2023 iThome 鐵人賽

DAY 18

AI & Data

量化交易與機器學習系列第 18 篇

15th鐵人賽

HO-HSUN

2023-09-18 23:48:44

457 瀏覽

分享至

投資組合管理通常是指選擇和管理投資策略的過程，以最大限度地降低風險並最大化投資回報。

投資組合管理的基本框架之一是現代投資組合理論(MPT)。
目的是通過多元化來優化投資組合的回報風險比。

MPT的有效邊界及約束

現代投資組合理論引入的一個概念是效率前沿(Efficient Frontier)。
這是指在給定風險水平下提供最高預期回報的投資組合集合，或者同等地，在給定預期回報水平下提供最低風險的投資組合。

風險僅由標準差定義,投資者是理性的，期望效用(Expected Utility)最大化,回報呈正態分佈,投資者有同樣的期望和估計誤差。
這會導致一些問題，因為它沒有考慮交易成本，這可能會導致資產配置出現較大差異，有時會導致投資組合不多元化。
儘管如此，MPT 提供了一個有價值的標準差最小的最優投資組合。

Black-Litterman

一種克服經典馬科維茨均值標準差投資組合理論在應用於現實情況時的局限性。
創新之處在於該模型能夠將預期回報的主觀觀點與市場均衡框架相融合。

Black-Litterman 模型的內在優勢在於其自然產生多元化投資組合的能力，這與可能導致極端權重的均值-標準差優化形成鮮明對比。
這種多元化很大程度上是反向優化步驟的副產品，該步驟利用市場權重來獲得預期回報。
該模型能夠在連貫的數學和統計框架內融合市場均衡回報和投資者的主觀觀點，標誌著現代投資組合理論的重大進步。

分級風險平價

許多流行的二次優化器(Optimizer)通常在樣本外表現不佳，甚至不包括預測回報。
根本問題在於需要對共變異數矩陣求逆，這可能會導致性能不佳。

反演過程的穩定性是通過共變異數矩陣的條件數來衡量的，即共變異數矩陣的最大特徵值與最小特徵值的絕對值之比。
條件數越高，表明資產相關性越大，導致逆矩陣的不穩定性增加。
表明當投資組合多樣化的需求最大時，二次優化方法可能最有問題，並強調此類優化方法的實際局限性。

分層風險平價（HRP）方法

HRP 模型通過避免矩陣求逆的必要性，有效地迴避了共變異數矩陣引起的問題。

HRP 方法的關鍵是在資產回報相關矩陣上應用層次叢集。
這個過程產生一個樹狀圖，一個描繪連續的樹狀圖

然後將其分叉，將投資組合資產分為兩個分支。
這種分叉被遞歸地應用，產生資產的嵌套分組。

現在，讓共變異數矩陣定義為在，投資組合權重向量為在。
在每個分叉內，兩個集群（表示為 A 和 B）之間的資本分配是確定的。
具體來說，分配基於反標準差方法，每個簇的分配與其標準差成反比。

分配是遞歸進行的，從樹的頂層開始並逐步向各個資產進行。

因此，分層風險平價方法產生了一個在不同分層集群之間實現風險平衡的投資組合，為投資組合優化提供了一種引人注目的替代方案，有效地緩解了馬科維茨方法的局限性。

投資組合管理中採用的指標

為了衡量投資組合的質量，可以採用多種指標。

夏普比率(SR)：
衡量投資在調整風險後與無風險資產相比的表現。
是投資回報率與無風險利率之間的差額除以投資回報率的標準差。
最大回撤(MDD)：
是投資組合在達到新峰值之前從峰值到谷底的最大損失。
是指定時間段內下行風險的指標。
信息比率(IR)：
是衡量投資組合回報高於基準（通常是指數）回報與這些回報波動性相比的指標。
通常用於量化主動管理。
相關性：
是通過模型投資組合回報率與基準回報率之間的相關性來衡量的，在本例中被視為道瓊斯指數。
累積回報：
以投資組合策略的複合回報來衡量。
用於計算一段時間內的總回報。

強化學習

強化學習（RL)是機器學習的一個領域，代理通過執行某些操作並觀察這些操作的結果來學習如何在環境中表現。
RL 背後的主要思想是讓智能體通過與環境交互來學習，並使用獎勵或懲罰形式的反饋來構建可以決定在不同情況下採取哪些操作的策略。

Actor-Critic

這種類型的強化學習方法主要由兩個部分組成，恰當地命名為行動者(Actor)和評論家(Critic)。

這 Actor 指的是代理的策略函數，即決定在給定狀態下採取哪種操作的組件。
這評論家(Critic)另一方面，估計當前策略的價值函數。
他們共同努力，根據評論家(Critic)的值估計並調整評論家(Critic)的根據收集的經驗進行價值估算行動者(Actor)。
涉及這種動態的步驟可以表示為評論家(Critic)和行動者(Actor)更新。

Actor-Critic 算法利用了基於價值和基於策略的方法的優勢 [阿魯庫馬蘭等人，2017]。
這評論家的價值估計有助於減少更新的標準差，使學習更加穩定，而行動者的明確的策略允許更好的探索和學習隨機策略的能力[赫斯等人，2015]。

深度強化學習

它已在具有離散和連續動作空間的環境中使用，顯示出其實現超人性能的能力。

最大熵強化學習

與標準強化學習不同，最大熵強化學習最大化獎勵總和，同時保持策略熵盡可能大。

SAC 對於連續行動空間中的策略學習，實現了最大熵目標函數。
通過向標準 Bellman 運算子添加熵時間圓周率，反复應用柔性策略評估，然後進行柔性策略改進，直到發生收斂。
柔性策略改進是通過最小化策略分佈和軟動作值函數的指數形式之間的 KKL散度(Kullback-Leibler divergence, KLD)來實現。